1
Confronto tra paradigmi di utilizzo dei dati: lo spettro dell'etichettatura
EvoClass-AI003Lecture 10
00:00

Confronto tra paradigmi di utilizzo dei dati: lo spettro dell'etichettatura

Il successo nel deploy di modelli di apprendimento automatico dipende criticamente dalla disponibilità, qualità e costo dei dati etichettati. In ambienti dove l'annotazione umana è costosa, impossibile o altamente specializzata, i paradigmi standard diventano inefficienti o falliscono del tutto. Presentiamo lo spettro dell'etichettatura, distinguendo tre approcci fondamentali in base a come sfruttano le informazioni: Apprendimento supervisionato (SL), Apprendimento non supervisionato (UL), e Apprendimento semi-supervisionato (SSL).

1. Apprendimento supervisionato (SL): Alta fedeltà, alto costo

SL opera su dataset in cui ogni input $X$ è esplicitamente accoppiato a un'etichetta di riferimento nota $Y$. Sebbene questo approccio raggiunga tipicamente la massima accuratezza predittiva per compiti di classificazione o regressione, la sua dipendenza da etichettature dense e di alta qualità è molto costosa in termini di risorse. Le prestazioni peggiorano drasticamente se gli esempi etichettati sono scarsi, rendendo questo paradigma fragile e spesso economicamente insostenibile per dataset massivi e in evoluzione.

2. Apprendimento non supervisionato (UL): Scoperta della struttura latente

UL opera esclusivamente su dati non etichettati, $D = \{X_1, X_2, ..., X_n\}$. Il suo obiettivo è inferire strutture intrinseche, distribuzioni di probabilità sottostanti, densità o rappresentazioni significative all'interno del manifold dei dati. Applicazioni chiave includono il clustering, l'apprendimento di manifold e l'apprendimento di rappresentazioni. UL è estremamente efficace per il preprocessing e l'engineering delle caratteristiche, fornendo intuizioni preziose senza alcuna dipendenza da input umani esterni.

Question 1
Which learning paradigm is designed specifically to mitigate high reliance on expensive human data annotation by utilizing abundant unlabeled data?
Supervised Learning
Unsupervised Learning
Semi-Supervised Learning
Reinforcement Learning
Question 2
If a model's primary task is dimensionality reduction (e.g., finding the principal components) or clustering, which paradigm is universally employed?
Supervised Learning
Semi-Supervised Learning
Unsupervised Learning
Transfer Learning
Challenge: Defining the SSL Objective
Conceptualizing the Combined Loss Function
Unlike SL, which optimizes solely based on labeled fidelity, SSL requires a balanced optimization strategy. The total loss must capture prediction accuracy on the labeled set while enforcing consistency (e.g., smoothness or low density separation) across the unlabeled set.

Given: $D_L$: Labeled Data. $D_U$: Unlabeled Data. $\mathcal{L}_{SL}$: Supervised Loss function. $\mathcal{L}_{Consistency}$: Loss enforcing prediction smoothness on $D_U$.
Step 1
Write the general form of the total optimization objective $\mathcal{L}_{SSL}$, incorporating a weighting coefficient $\lambda$ for the unlabeled consistency component.
Solution:
The conceptual form of the total SSL loss is a weighted sum of the two components: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. The scalar $\lambda$ controls the trade-off between label fidelity and structure reliance.